期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于融合条目词嵌入和注意力机制的自动 ICD 编码
张虹科, 付振新, 任前平, 徐辉, 赵东岩, 严睿
北京大学学报自然科学版    2020, 56 (1): 1-8.   DOI: 10.13209/j.0479-8023.2019.095
摘要1465)   HTML    PDF(pc) (725KB)(188)    收藏
构建一种基于融合条目词嵌入和注意力机制的深度学习模型, 可以充分利用电子病案中的多种非结构化文本数据, 对病案首页的主要诊断进行自动ICD编码。该模型首先对含有病案条目的文本进行融合条目的词嵌入, 并通过关键词注意力来丰富词级别的类别表示; 然后利用词语注意力来突出重点词语的作用, 增强文本表示; 最后通过全连接神经网络分类器进行分类, 输出ICD编码。通过在中文电子病案数据集上的消融实验, 验证了融合条目词嵌入、关键词注意力和词语注意力的有效性; 与多个基准模型相比, 所建模型在对81 种疾病的分类中取得最好的分类效果, 可以有效地提高自动ICD编码的质量。
相关文章 | 多维度评价 | 评论0
2. 融合词、句层级信息的抽取式摘要优化框架
林心宜, 严睿, 赵东岩
北京大学学报(自然科学版)    2018, 54 (2): 229-235.   DOI: 10.13209/j.0479-8023.2017.148
摘要1059)   HTML4)    PDF(pc) (487KB)(363)    收藏

提出一个混合的抽取式摘要优化框架, 在优化单词层级信息的同时, 将句子层级信息作为优化约束。在约束条件下, 该优化框架迭代地进行摘要文本中单元的替换, 得到不断逼近目标函数的最优解。与传统方法对比, 该框架在DUC数据集上获得ROUGE评测的高分, 证明了该框架的有效性。

相关文章 | 多维度评价 | 评论0
3. 语义知识库构建中的异常数据发现
贺彬彬,邹磊,赵东岩
北京大学学报(自然科学版)   
4. 面向知识库的中文自然语言问句的语义理解
许坤,冯岩松,赵东岩,陈立伟,邹磊
北京大学学报(自然科学版)   
摘要811)      PDF(pc) (493KB)(532)    收藏
设计从自然语言问句到结构化查询的转换框架。该方法从自然语言问句的句法结构入手, 提出一套启发式识别实体与关系的方法, 并利用语料库建立从实体到知识库的映射, 对谓词进行消歧, 进而转化为计算机可理解的结构化查询语言。从百度知道抽取人物、地点、组织3类共 42 个问题作为标准测试集。实验结果表明, 所提出的框架能够有效地将中文自然语言问句转换为结构化查询, 为下一代智能问答系统打下良好的基础。
相关文章 | 多维度评价 | 评论0
5. C-TERN: 一种基于CFSA的军事新闻文本时间信息处理算法
王伟,赵东岩,苏婷婷
北京大学学报(自然科学版)   
摘要577)      PDF(pc) (506KB)(280)    收藏
提出一种基于层叠有限状态自动机(CFSA)的中文军事文本时间表达式识别与规范化算法C-TERN。C-TERN首先利用成熟的分词工具识别出文本中的时间词, 然后将从通用语言和军事语言中提取的时间表达式规则分成多层, 逐层进行时间信息的精细识别。在规范化过程中, 通过4个步骤分别对特殊时间表达式、简单时间表达式、时间段表达式和绝对/相对时间表达式进行推理计算和规范化。算法考虑了规则集提取的正确性、规则之间冲突的消解以及匹配方式的合理性。在多个数据集上的实验结果显示, C-TERN不但能有效地识别标准时间、偏移时间和不确定性时间表达式, 而且能完成对简单、特殊以及隐含的时间点、时间段和偏移时间的推理与规范化, 能够满足军事文本时间信息处理的需要。
相关文章 | 多维度评价 | 评论0
6. 基于本体结构的新闻个性化推荐
饶俊阳,贾爱霞,冯岩松,赵东岩
北京大学学报(自然科学版)   
摘要904)      PDF(pc) (1000KB)(312)    收藏
为了更好地对新闻和用户进行建模, 将语义相似度模型引入基于内容的推荐系统中, 挖掘两者之间的语义关联。提出一种基于本体结构的相似度模型(OBSM), 利用在线百科构建的本体结构, 计算新闻和用户之间的语义相似度。为了降低本体结构上噪音数据对推荐效果带来的影响, 提出X-Ontology聚类算法对本体结构进行清理, 并衍生出OBSM的升级模型X-OBSM。中文和英文实验表明, OBSM和X-OBSM比基准模型具有更好的推荐效果, 尤其是对本体结构进行清理后, X-OBSM具有比OBSM更高的计算效率。
相关文章 | 多维度评价 | 评论0
7. 多类核极化及其在多宽度RBF核参数选择中的应用
汪廷华,赵东岩,张琼
北京大学学报(自然科学版)   
8. 中文新闻关键事件的主题句识别
王伟,赵东岩,赵伟
北京大学学报(自然科学版)   
摘要1010)      PDF(pc) (571KB)(1427)    收藏
提出在单文档中通过提取主题句以获取关键事件信息的思想。根据新闻的体裁特点, 分析了新闻报道与事件的关系, 以及新闻标题在内容、形式和语言方面的特征。提出利用标题的提示性信息提取主题句来描述新闻关键事件的方法。该方法首先对新闻标题按信息含量进行分类, 然后结合新闻句子的词频、长度、位置、与标题的相似度等特征计算句子的重要性。实验表明, 该方法能够准确提取新闻主题句, 为进一步抽取事件信息打好了基础。
相关文章 | 多维度评价 | 评论0